iT邦幫忙

2023 iThome 鐵人賽

DAY 7
0

今天的內容比較短一些,主要介紹一下什麼是 Data Version Control
整個 Data Version Control 可以用下面這張圖來描述

https://ithelp.ithome.com.tw/upload/images/20230911/20161911OH4FTNKWGB.jpg

為什麼需要 Data Versino Control

如果要透過 Github + LFS 來管理整個模型用到的版本,會需要搭配很多的 Convention 才能做到比較好的管理,為了讓這些 Convention 有更強的約束力,會需要去實作一些 Github Hook 工具來達到好的管理,我認為 Data Version Control 的目的就是這樣,他有以下特色:

  • 在 Git 存儲 Metadata and Version Information,而實際的文件則存儲在 Cloud Storage(例如 S3、GCS、Azure、SSH、HDFS 等
  • Metadata 包括一個 Pipleine,可以生成一個相依的依賴,知道有哪些步驟需要運行,達到 Data Lineage 目的
  • 與 Git 一樣的命令(如 commit, push, pull 等)來管理數據和模型

透過這些特色可以做到

  • 跟踪和版本控制大型數據集、特徵、模型等
  • 確保代碼、數據和模型之間的一致性,除了重現外,也更容易和其他人分享所使用的版本,以分享 Repo 替代分享檔案路徑
  • 更輕鬆地進行 A/B 測試,比較不同版本的數據和模型
  • 自動化和再現數據處理和訓練管道,也是建構 AutoML 的基礎

常見的工具

 Data Version Control 是將軟體工程的最佳實踐引入資料科學開發的第一步,即使是在不合作的情況下也能提供很多額外的附加價值,其中最常用的工具就是 DVC 另外有另外一套工具叫 ArtiVC 號稱比 DCV 更快

關於 DVC 如何使用可以參考這篇文章 他做了很好的範例


上一篇
Day 6 研究的架構
下一篇
Day 8 Experiment Version Control
系列文
踏上 MLOps 之路:從 Applied Data Scientist 到 MLOps 的轉變與建構30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言